该内容已被发布者删除该内容被自由微信恢复。

文章于 2022年6月9日被检测为删除。

被用户删除

其他

何莲珍、罗蓝：语言考试与语言能力量表对接研究：路径与方法

何莲珍、罗蓝应用语言学研习 2022-06-09

来源：语言学通讯

点击蓝字关注我们

八万学者关注了语言学通讯

语言考试与语言能力量表对接研究:路径与方法

何莲珍,浙江大学外国语言文化与国际交流学院教授,博士生导师,研究方向:应用语言学、语言测试。

何莲珍教授

欢迎加入语言学通讯读者群，添加时请自报实名，单位和研究方向

语言学及应用语言学加群联系人：sflsy0803 孙老师

文学与翻译加群联系人：Nicole2397471433 李老师

摘要：开展语言考试与语言能力量表的对接研究能为学习者、教育者和成绩使用者提供重要的参考依据,帮助他们了解分数所反映的语言能力;还能使不同考试之间具有可比性,促进学习成果的沟通与互认,提升考试质量,以更好地发挥考试对教学的正面反拨效应。国外已有大量对接研究,但我国的对接研究才刚刚起步。本文综述语言考试与语言能力量表对接的背景、步骤以及相关研究,明确对接的意义以及对接研究在我国的发展方向,以期为我国开展对接研究提供一定的借鉴。

主题词：语言考试; 对接; 《中国英语能力等级量表》; 语言能力量表;

文献来源： 何莲珍,罗蓝.语言考试与语言能力量表对接研究:路径与方法[J].外语教学,2020,41(01):29-33.

作者简介：何莲珍,浙江大学外国语言文化与国际交流学院教授,博士生导师,研究方向:应用语言学、语言测试; 罗蓝,浙江大学外国语言文化与国际交流学院博士研究生,研究方向:语言测试。

1.引言

目前我国的英语考试种类繁多、标准不一、用途各异,只有把它们放在同一量表上才具有可比性。《中国英语能力等级量表》(简称《量表》)的推出,为我国不同英语考试提供了对接的依据。对接结果可以使不同考试之间具有可比性,促进学习成果的沟通互认,避免资源浪费和考试的误用或滥用,也可以促进考试质量的提升,充分发挥考试的正面反拨效应。

然而,语言测试领域的对接研究充满挑战。为确保对接效度,研究者需通过定性与定量相结合的方法,遵循科学的对接研究规范,按照科学的对接步骤进行实证研究。本文通过梳理与分析语言考试与语言能力量表对接的背景、步骤和国内外相关研究,进一步阐明对接的意义及其发展方向,以期为我国开展对接研究提供一定的借鉴,推动《量表》在语言测试中的应用。

2. 对接的背景

20世纪90年代,随着欧洲一体化进程的加快,人们意识到语言与沟通的重要性并认为有必要建立共同的语言能力标准,各种语言能力量表(又称语言能力标准或语言能力框架)应运而生(韩宝成 2006)。它们是一种描述或评价语言使用者语言运用能力的测量工具,且通常按照语言能力的发展由低到高分成若干等级,分别对各级别语言能力进行一系列具体描述(North 2000a)。其中,基于交际语言能力理论的《欧洲语言共同参考框架》(Common European Framework of Reference for Languages,简称CEFR)对语言使用者的语言能力进行了全面、分技能、分等级的“能做(can-do)”描述,堪称语言能力量表的典范。自问世以来,CEFR已在世界各地实践应用近二十年,对欧洲语言教学产生了积极的作用,为欧洲诊断语言测试系统(Diagnostic Language Tests,简称DIALANG)等测试项目的研发提供了评估框架,并为各国验证或建立自己的语言能力评估体系提供了重要参考标准(Alderson 2005;方绪军,等 2011)。

随着CEFR等语言能力量表的研制与颁布,研究人员尝试将不同的语言考试与语言能力量表进行对接,语言测试领域的对接研究也因此逐渐发展起来(Alderson 2002;Morrow 2004)。“对接”(linking或aligning)指的是将两个独立的测量工具(考试与考试,考试与量表,量表与量表)连接起来的研究过程(North & Piccardo 2018)。文献中对考试与考试的对接有较多记载,如等值(equating)、校准(calibrating)等(North 2000b)。然而早期的对接研究并没有采用或没有完全掌握科学的对接方法,导致对接结果缺乏效度,甚至对教育部门乃至边境管理局的决策产生了影响(North & Piccardo 2018)。

为纠正偏倚,提高考试与量表对接的效度,欧洲理事会于2003年和2009年分别颁布了《连接语言考试与欧洲语言共同参考框架手册》(简称《对接手册》)及其修订版,旨在为语言考试与语言能力量表的对接研究提供一个科学的对接体系,为使用者提供一套行之有效的对接步骤,增强对接研究的透明度(Council of Europe 2009)。Martyniuk(2010)一书收录了一些来自欧洲各国根据《对接手册》开展的对接研究,为读者提供了综合的视角。它们不仅证实了各地区不同层次语言考试与CEFR对接的可行性,同时证明对接研究已然成为语言测试领域一个值得关注的研究方向。

近年来,对接研究在国际语言测试领域发展迅速。各类语言考试与语言能力量表的对接研究从欧洲扩大到世界其它地区。国际知名考试机构也都依循对接步骤开展了外语水平考试与各类语言能力量表的对接,大大提高了考试的透明度与可比性。美国教育考试服务中心于2008年完成了TOEFL iBT考试与CEFR的对接,帮助考生和成绩使用者更好地理解分数所对应的语言能力(Tannenbaum & Wylie 2008),并于2014年根据使用者的反馈修订了CEFR各等级的最低分数线,以确保分数线的合理性和录取的质量(Papageorgiou et al. 2015)。IELTS、培生学术英语考试(PTE-Academic)分别通过考试与语言能力量表的对接为其考试提供效度证据,使其成绩报告同时包含CEFR或GSE(Global Scale of English)等级,更真实详尽地描述考生的语言水平(Taylor 2004; De Jong & Zheng 2016)。加拿大非常重视移民者的语言水平,移民局认可的法语考试(TEF,TCF,DELF等)与CEFR等级及加拿大语言能力标准(Canadian Language Benchmarks,CLB)等级之间也都建立了对应关系(Government of Canada 2019)。

对于高利害考试来说,对接研究最重要的是要呈现和分享专家如何在理解量表和测试任务的前提下,对各等级的能力标准做出准确的判断,以确保对接效度。语言能力量表是对语言水平的描述,它并不描述任何测试属性或题项要求,也不基于任何项目难度理论,所以考试与量表对接的任务必须由专家判断来完成(Harsch & Hartig 2015)。然而专家判断具有不确定性,甚至会受到个人偏见或其他无关因素的影响,因此对接过程需严格按照标准的对接步骤进行,并在相应的监督下完成(Eckes 2012)。

3. 对接的步骤

《对接手册》提供了对接的四个步骤:框架熟悉(familiarization)、试题检视(specification)、标准设定(standard setting)和效度验证(validation)。这些步骤都融入了传统的考试对接方法,框架熟悉量表、试题检视和标准设定在不同层面上呈现了社会协调方法(social moderation),而标准设定也体现了预测(predicting)和校准的方法(North & Piccardo 2018)。因此《对接手册》实际上是在应用传统考试对接方法的基础上对语言考试与语言能力量表的对接做出了进一步创新,不仅指出技术支持与对接的严格程度息息相关,还强调了使用两组独立数据源以验证对接效度的重要性(North & Piccardo 2018)。

3.1 框架熟悉

框架熟悉旨在通过一系列培训活动,确保所有参与对接的专家不仅对量表有整体性了解,还对每个等级所描述的语言能力典型特征有充分认识和理解。如果专家对量表及其描述语没有充分的认识,对接研究的质量也将受到质疑。因此框架熟悉是对接研究中不可或缺的步骤,可为整个对接项目提供强大支撑。后面的步骤(试题检视、标准设定等)也可根据实际需要重复这一活动。但是即便如此,也不能避免专家把自身的文化背景带入对量表的理解中,因此不少研究采用了来自不同文化背景的两个专家小组(twin-panel)(North & Jones 2009)。

3.2 试题检视

试题检视旨在为对接过程提供内部一致性和构念效度的证据(Council of Europe 2009)。专家需在熟悉量表的基础上,对考试内容进行分析,并在此基础上依据量表的相关描述语对考试所对应的级别进行判断,对结果进行讨论。参与的专家越多,考试内容的分析就越可靠。该步骤通常涉及将考试与量表的描述语进行对照,检验考试内容在多大程度上体现了量表所覆盖的能力要求,提高人们对于考试的认识,为进一步提高考试质量提供依据(North & Piccardo 2018)。因此该步骤也可被视为是对考试内容效度的检验。没有足够的内容效度证据,就没有必要进行标准设定(Tannenbaum & Cho 2014)。

3.3 标准设定

标准设定旨在建立一个决策体系,根据考试成绩将考生划分到不同的能力等级。它通常涉及临界分数的设定,是对接过程中最关键的一步。为达到最佳的标准设定效果,文献中也提出了一系列重要原则,如:谨慎选择专家组成员、确保有足够的专家人数(最好有15—20位)、预留充裕时间以达成共识、使用恰当的标准设定方法、进行充分的培训和多轮判断,以及适时展示实证数据等(Tannenbaum & Cho 2014)。

标准设定的方法很多,大致可分为两大类:试题中心法(test-centered)和考生中心法(examinee-centered)。试题中心法需要专家对临界水平考生在每个测试项目上的预期表现做出判断,一般适用于接受式技能考试,即听力或阅读考试。其中最具代表性的是Angoff法,它的任务是界定“最低能力考生(minimally acceptable person)”(Angoff 1971)。很多标准设定方法都以此为基础,如改良Angoff法(Livingston & Zieky 1982)、基于项目反应理论(Item Response Theory,简称IRT)的标准设定方法(如书签法,Lewis et al. 1996)等。此外,运用较广、操作简便的还有投篮法(basket method)(Kaftandjieva 2010),它要求专家在不了解难度值的情况下,想象考生与各题目的互动情境,再将题目分配到代表各量表等级的篮筐中。不同标准设定法各有优劣,因此有关听力或阅读测试的对接研究往往会采用投篮法与Angoff法(或IRT法)并用的方式进行标准设定,投篮法则通常被用于专家熟悉考试及进行标准设定的热身过程。

考生中心法则将注意力直接放在考生身上,要求专家在熟悉考生但不了解考生测试表现的情况下将他们置于有序的表现类别。这一类方法更适用于对产出类技能,即口语或写作考试,进行标准设定。比较典型的方法有临界组法(borderline groups method)、对照组法(contrasting groups method)和分析判断法(analytical judgement method)。临界组法(Livingston & Zieky 1982)一般只需专家将考生分为三大类,即及格组、临界组和不及格组,收集临界组考生的分数,以中位数作为分临界点分数。对照组法(Livingston & Zieky 1982)则需要专家在熟知考生的情况下对他们在实际测试中的表现进行判断,确定一组明显高于标准水平的考生和一组明显低于标准水平的考生,然后分别对两组考生实施测验,并将分数的频率分布绘制在同一坐标中,其交点即临分界点分数。分析判断法则需要专家在审查考生样本后将其进行分类,并通过临界类别样本的判断形成临界组,临界组样本的平均分即临界分数线(Plake & Hambleton 2000)。

3.4 效度验证

效度是对接研究的关键,它决定了对接结果的精度和信度。效度验证则需提供与对接过程及其结果相关的效度证据。它通常包括三个方面:程序效度、内部效度和外部效度。

程序效度验证需要确认对接项目的每一步骤是否得以有效实施。例如,培训可以确保对接步骤的有效进行,使专家对考试、量表以及对接步骤有更充分的认识。衡量整个培训过程是否有效的标准是确认专家是否真正了解所有信息。因此程序效度的验证通常以问卷形式进行,如收集专家对量表的熟悉度、对标准设定方法的理解程度,以及对实际操作的自信程度等信息。

内部效度验证需要回答标准设定结果的准确性和一致性问题。在验证内部效度时,研究者需提供与一致性和准确性相关的四方面内容:专家自身的一致性、专家之间的一致性、结果的稳定性以及标准设定中分类的准确性和一致性(Council of Europe 2009)。Tannenbaum & Kannan(2015)也通过研究证实内部效度可以通过提供标准设定结果的一致性和可复制性证据进行验证。

外部效度验证需要通过外部证据的收集以验证专家组的对接结果。标准设定方法各有利弊,因此外部效度的验证过程有助于增强临界分数设定的合理性(Tannenbaum & Wylie 2008)。最简单的外部效度验证方式即收集两部分数据:同批考生在另一个测试中的成绩或不同批考生在相同测试中的成绩;同批专家采用不同标准设定方法所得的结果(Council of Europe 2009)。此外,许多研究者还通过循环验证临界分的方式进行检验,如进行两个专家组标准设定结果之间的比较、两种不同标准设定方法结果之间的比较等。

4. 对接研究面临的挑战

尽管对接研究在国外已有时日,技术也较为成熟,但考试与语言能力量表的对接仍充满挑战,尤其是对接效度。目前对接研究主要面临四方面挑战:

1)量表的局限性。描述语匮乏、模糊或不一致,测试内容与描述语不匹配等问题都是专家在对接研究中面临的挑战(Papageorgiou 2010)。Downey & Kollias在将Advanced Level Certificate in English(ALCE)考试与CEFR进行对接时,发现CEFR并不基于某一特定语言,不能为各等级提供较为具体的、涉及语法或词汇的描述语(Martyniuk 2010)。因此在标准设定时,专家需要借鉴并参考基于CEFR所设计的DIALANG测试的语法标准,而ALCE与DIALANG的构念略有不同,从而增加了对接难度。同样因为量表的局限性,Kecker & Eckes在对德语考试TestDaF与CEFR的对接结果进行效度验证时分别利用DIALANG测试和教师评判作为接受类技能和产出类技能的外部效验标准(Martyniuk 2010)。

2)对接框架的完整性。以往的对接研究已证实《对接手册》所提供的对接框架具有可行性及易操作性。但在肯定其重要贡献的同时,不少研究仍在尝试对四个对接步骤作进一步拓展,以求更好地服务于后续的对接研究。例如,O’Sullivan指出考试题检视与效度验证并未有机地联系起来,因此在进行对接研究时只能借助其他效度验证框架。Dávid指出在熟悉量表后,可以采用问卷等方式具体评估专家对量表的熟悉程度,进一步确认他们在理解上没有偏差,以确保对接的效度(Martyniuk 2010)。

3)标准设定方法的多样性。自Glaser & Klaus提出“标准参照测试”概念后,标准设定也随之成为人们关注的焦点,心理与教育测量界高度重视标准设定,并对其概念、方法及应用进行了深入探讨。据Kaftandjieva(2010)统计,有至少62种标准设定方法。然而,各种方法均有利弊,不同的方法可能会产生不同的临界分数,如何在对接研究中选用最佳的标准设定方法一直是研究者广泛关注的问题。如果标准设定方法与测试的目的一致,且在实践中得到了检验,那么这种标准设定的信度就越高,对接效度也就能得到保证。

4)专家判断的有效性。专家判断具有不确定性,甚至受到个人偏见或其他无关因素的影响(Eckes 2012)。研究发现专家在将题目与量表的描述语或等级进行映射时用的是不同的判断标准,而研究者对专家判断所依据的评判标准了解甚少。Harsch & Hartig(2015)的研究发现专家理解量表及各能力等级时所依据的判断标准各不相同,且形成的判断体系不具可比性。如果专家不能遵循量表描述语所表达的语言能力等级进行对接,对接的效度也将受到质疑。因此,继续探讨对接过程中专家判断的有效性及其所依据的判断标准将为对接研究的效度提供证据。

对接过程其实是一个循环的论证过程,每一步都需要我们不停地收集证据以确认整个对接的效度,并迫使我们回到上一步进行反复修正(Kantarciolu et al.,引自Martyniuk 2010)。研究人员需要继续研究并探讨影响对接效度的各种因素,为开展对接研究提供更多的理论支持与实践指导。

5. 国内对接研究:现状与前景

对接研究在我国才刚刚起步,主要原因是在《量表》颁布以前,我国没有统一的英语能力标准,而国外的量表不能直接应用于中国语境。国内学者对为什么要开展语言考试与量表的对接以及如何开展对接研究没有充分的认识。近年来,国内也出现了一些英语考试与国外语言能力量表对接的研究,这在一定程度上填补了国内该领域研究的空白,为开展对接研究做出了有益的探索。但是这些研究具有一定局限性,未能让更多研究者理解其价值,对开展对接研究的促进作用有限。

《量表》的研制与颁布为我国的对接研究提供了契机。始于2014年的《量表》研制工作旨在架起一座连接中国语境下语言学习、教学和测评之间的桥梁,提供统一的语言能力标尺。从语言学习角度看,《量表》可以为学习者不同阶段的语言能力发展提供参考,有助于制定合理的学习进度,循序渐进地完成学习目标。从语言教学角度看,《量表》可以为教学活动的各个环节提供参照,有利于教师因材施教,对学生的语言水平做出准确的评价。从语言测评角度看,《量表》可以为语言测试的设计与研发提供统一的标准,为不同的测试提供纵向定位和对接依据,使考试之间具有可比性,促进各阶段学习成果的沟通与互认(林蕙青 2015;刘建达 2015)。

开展国际英语考试与量表的对接将有助于中国考生对这些考试有更充分的认识。雅思和普思考试已率先完成了与《量表》的对接,其结果为中国英语学习者、各教育机构及成绩使用者提供了重要参考。通过对接,中国英语学习者可以对自己在国际英语考试中的表现有更准确的预判,制定合理的备考计划。各教育机构可以参照《量表》的具体描述语,制定更清晰的培养目标,改进教材及教学方式。成绩使用者可以根据自身需求,参照对接结果及《量表》描述的语言能力科学选才(O’Sullivan 2018)。

开展国内语言考试与《量表》的对接可以使不同英语考试之间具有可比性,促进学习成果的沟通互认,避免资源的浪费和考试的误用或滥用;可以赋予考试的分数报告以更多的信息与意义,帮助考生更好地了解自己的语言能力,了解学习过程中的进步与不足;可以促使考试使用者或设计者重新审视测试的构念,检验其信度和效度,提升考试的质量;可以对各类考试起到规范性作用,减少重复考试对正常教学的干扰,更好地发挥考试的正面反拨效应(何莲珍、张慧玉 2017)。

开展校本考试与《量表》的对接研究也是未来的一个重要发展方向,其结果将为学校的决策提供依据,促进教育的开放和透明(Harsch 2018)。近年来多所高校自主研发和实施了校本英语考试,并将此作为毕业的要求。作为一种内部评价手段,校本考试的设计更符合本校学生的英语水平,有利于更好地实现学校的人才培养目标。开展校本考试与《量表》的对接将为校本考试合格分数线的设定及其合理性提供依据,为考试的设计与改进提供参照,从而提高命题水平和测试效度。

6.小结

开展考试与《量表》的对接研究能为学习者、教育者和成绩使用者提供重要参考,使不同考试之间具有可比性,促进学习成果的沟通与互认。《量表》的研制与颁布为我国外语教学与测评提供了统一的语言能力标准,同时也为我国对接研究的开展提供了可能。应充分借鉴和汲取国外对接研究的经验与教训,积极开展科学有效的对接研究,促进我国英语学习、教学、测评的协调发展,推进我国外语教育的规范化、系统化与国际化。

本期书籍推荐

本书主要研究基于语料库的英语语言研究的广度，包括关于搭配、短语学、语法变化、历史变化以及寄存器和方言的描述的章节。

本书在国内的京东、亚马逊都无法购得，如果对本书感兴趣，有意购买，请联系公众号孙老师（微信：sflsy0803)，可优惠价格得纸质书。

编者按

参考文献略，欢迎查阅《外语教学》2020年第1期纸质原文。

本文编辑：上海理工大学孙雨

本文审核：吉林大学王峰

公众号外联：我们优先推广免费的学术会议、讲座、研修等项目。收费项目与商务合作需支持劳务费，请联系dianzishu@126.com 商谈。

八万学者关注了

○

语言学通讯

○

请留下你指尖的温度

让太阳拥抱你

记得这是一个有情怀的公众号

点“在看”给我一朵小黄花

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

小敏感喊话阿哲，出镜抖音！欠钱不还，小白龙再被扒借贷官司！

何莲珍、罗蓝：语言考试与语言能力量表对接研究：路径与方法

您可能也对以下帖子感兴趣

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

小敏感喊话阿哲，出镜抖音！欠钱不还，小白龙再被扒借贷官司！

生成图片，分享到微信朋友圈

何莲珍、罗蓝：语言考试与语言能力量表对接研究：路径与方法

您可能也对以下帖子感兴趣